Ітераційна гра з нульовою сумою. Звіт про виконання лабораторної роботи з Теорія колективної поведінки інтелектуальних систем . Робота № 111386

Перехід до торгівельного партнера Binance

Ітераційна гра з нульовою сумою

Інформація про навчальний заклад

ВУЗ:

Національний університет Львівська політехніка

Інститут:

Не вказано

Факультет:

Не вказано

Кафедра:

Кафедра електронних обчислювальних машин

Інформація про роботу

Рік:

2005

Тип роботи:

Звіт про виконання лабораторної роботи

Предмет:

Теорія колективної поведінки інтелектуальних систем

Група:

КІ-44

Завантажити

Частина тексту файла

Міністерство освіти і науки України Національний університет „Львівська політехніка” Кафедра електронних обчислювальних машин Звіт про виконання лабораторної роботи № 2 з курсу „ Теорія колективної поведінки інтелектуальних систем ” Тема: Ітераційна гра з нульовою сумою Львів – 2005 Мета: Реалізувати програмну модель ітераційної гри з нульовою сумою та дослідити власну поведінку в цій грі. Загальні відомості За допомогою ітераційної гри двох гравців з нульовою сумою (zero-sum game) процес навчання досліджується. Одним гравцем виступає студент, другим – змодельоване середовище (одне з трьох: статичне детерміноване, динамічне детерміноване, стаціонарне випадкове). В кожній партії (ітерації) гри кожний з гравців обирає одиницю або двійку. Мета студента – вгадати хід суперника, мета середовища – протилежна (тобто студент виграє в тих випадках, коли він і середовище обирають однакову дію). Виграшний (правильний) хід приносить гравцю один бал. Перемагає той, хто першим набере 21 бал. Матриця виграшів має наступний вигляд: d2=1 d2=2 d1= 1 S1 = 1 S2 = 0 S1=0 S2=1 d1= 2 S1 = 0 S2 = 1 S1=1 S2=0 d1 – стратегія (дія), яку обирає студент; d2 – стратегія (дія), яку обирає середовище; S1 – виграш студента; S2 – виграш середовища. В процесі гри визначаються три залежності: Залежність біжучого виграшу від часу: S(t). Залежність біжучого сумарного виграшу від часу: S((t) = (St. Залежність біжучого проценту виграшних дій від часу: Ps(t) = (St / t. Поведінка середовищ: Статичне детерміноване середовище завжди обирає одиницю або двійку. Динамічне детерміноване середовище K1=const разів обирає одиницю, далі K2=const разів обирає двійку, після чого цей цикл повторюється. Стаціонарне випадкове середовище з ймовірністю p обирає одиницю, і з ймовірністю (1 - p) обирає двійку. Завдання 1. Скласти програму наступного змісту (алгоритм роботи програми): Випадково вибрати тип середовища (env_model) Ініціалізувати середовище (випадкова ініціалізація) Відкрити файл для збереження результатів Цикл від 1 до T (індекс t) Отримати стратегію (дію), обрану користувачем Отримати стратегію (дію), обрану середовищем Визначити біжучий виграш/програш користувача за допомогою матриці виграшів Модифікувати значення сумарних виграшів користувача та середовища Модифікувати значення проценту виграшних (правильних) дій користувача Якщо користувач або середовище набрали 21 бал, то припинити гру Запам’ятати отримані значення у файлі результатів Перейти на п.4 Закрити файл результатів. 2. Реалізувати моделі наступних типів середовища: 2.1. Статичне детерміноване. 2.2. Динамічне детерміноване. 2.3. Стаціонарне випадкове. 3. Дослідити власну поведінку в реалізованих моделях середовища (метою поведінки є отримання максимального сумарного виграшу за найменшу кількість спроб). Отримати вказані залежності від часу для кожного з типів середовища. 4. Порівняти отримані залежності та зробити висновки.Текст програми /* Copyright (c) 2005 alb. All Rights Reserved. * Multiagent systems Lab * Computer Engineering Department * Lviv Polytechnic National University * =============================================== * Multiagent Systems. Lab work 02. Iterated zero-sum game. * * You are in "game of 21" with environment (opponent). * Available strategies (action space) are D={1,2} * * Payoff matrix for you (used in each iteration of game) is the following * | 1 | 2 | * --------|-------|-------| * 1 | 1 | 0 | * --------|-------|-------| * 2 | 0 | 1 | * ________|_______|_______| * You must try to win in this game mimimizing the number of iterations. */ #include "stdafx.h" int t; // current time step int T = 100; // maximum number of time steps (interactions with environment) int env_model; // environmetn code: // 1 - envoronment with static response // 2 - envoronment with predetermined dynamic response // 3 - envoronment with stationary random response: // binary bandit task (n-armed band...

Звіт про виконання лабораторної роботи Теорія колективної поведінки інтелектуальних систем

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!

поділитись

Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Які роботи дозволено додавати до архіву?

Новини

Кілька варіантів заощадити на навчанні в Польщі

26.02.2019 12:38

Будь-який абітурієнт може поставити перед собою мету вчитися в Польщі. Для тих, кого зупиняє фінансове питання, важливо знати, що існує кілька варіантів навчання в Польщі для українців безкоштовно.